In this paper we look into the conjecture of Entezari et al. (2021) which states that if the permutation invariance of neural networks is taken into account, then there is likely no loss barrier to the linear interpolation between SGD solutions. First, we observe that neuron alignment methods alone are insufficient to establish low-barrier linear connectivity between SGD solutions due to a phenomenon we call variance collapse: interpolated deep networks suffer a collapse in the variance of their activations, causing poor performance. Next, we propose REPAIR (REnormalizing Permuted Activations for Interpolation Repair) which mitigates variance collapse by rescaling the preactivations of such interpolated networks. We explore the interaction between our method and the choice of normalization layer, network width, and depth, and demonstrate that using REPAIR on top of neuron alignment methods leads to 60%-100% relative barrier reduction across a wide variety of architecture families and tasks. In particular, we report a 74% barrier reduction for ResNet50 on ImageNet and 90% barrier reduction for ResNet18 on CIFAR10.
translated by 谷歌翻译
近年来,深度学习的显着进步主要是由于规模的改进而驱动,在该规模上,更大的模型在较大的数据集上进行了更长的时间表的培训。为了从经验上预测规模的好处,我们主张基于外推损失的更严格的方法,而不是报告最合适的(插值)参数。然后,我们提出了一种从学习曲线可靠地估算缩放定律参数的配方。我们证明,除了来自大型基础评估基准的任务外,除了大型域中,包括图像分类,神经机器翻译(NMT)和语言建模,包括图像分类,神经机器翻译(NMT)和语言建模,它比以前的方法更准确地推断出更准确的方法。最后,我们发布了一个由90个评估任务组成的基准数据集,以促进该领域的研究。
translated by 谷歌翻译
从简短的问题实例推断出较长的实例的能力是推理任务中分布概括的一种重要形式,并且在较长的问题实例很少见的数据集中学习时至关重要。这些包括定理证明,解决定量数学问题以及阅读/总结小说。在本文中,我们进行了仔细的经验研究,以探讨基于变压器的语言模型的长度概括能力。我们首先确定长度泛化任务上的天真固定变压器显示出与模型量表无关的显着泛化缺陷。然后,我们表明,将预处理的大语言模型与SCRATCHPAD提示(要求模型在产生答案之前输出解决方案步骤)相结合,从而巨大的长度概括改进。我们对每种学习方式进行了仔细的失败分析,并确定了常见的错误来源,这些错误来源突出了将语言模型的机会与更长的问题概括的能力。
translated by 谷歌翻译
语言模型在需要自然语言理解的各种任务上取得了非凡的表现。然而,最先进的模型通常在需要定量推理的任务上挣扎,例如在大学一级解决数学,科学和工程问题。为了帮助缩小这一差距,我们介绍了Minerva,Minerva是一种在一般自然语言数据上鉴定的大型语言模型,并进一步培训了技术内容。该模型在不使用外部工具的情况下实现了技术基准测试的最新性能。我们还评估了我们在需要定量推理的物理学,生物学,化学,经济学和其他科学方面的200多个本科生问题上评估我们的模型,并发现该模型可以正确回答其中几乎三分之一。
translated by 谷歌翻译
状态空间模型已显示在建模远距离依赖性方面有效,特别是序列分类任务。在这项工作中,我们着重于对英语书籍,GitHub源代码和Arxiv数学文章的自回旋序列建模。基于围绕封闭激活功能的有效性的最新发展,我们提出了一个名为“封闭状态空间(GSS)”的新层,并表明它的训练速度明显快于TPU的S4(即DSS)的对角线版本,具有相当竞争力 - 基于变压器的基线,并表现出零击向更长的输入,同时直接实施。最后,我们表明,利用自我意见来建模局部依赖性,可以进一步提高GSS的性能。
translated by 谷歌翻译
本文研究了静态稀疏对训练有素网络对扰动,数据腐败和对抗性示例的鲁棒性的影响。我们表明,通过增加网络宽度和深度,同时保持网络容量固定,稀疏网络始终匹配,并且通常优于其最初密集的版本,从而达到了一定的稀疏性。由于网络层之间的连通性松动而导致非常高的稀疏性同时下降。我们的发现表明,文献中观察到的网络压缩引起的快速鲁棒性下降是由于网络容量降低而不是稀疏性。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们介绍了块状变压器,该变压器以序列的反复方式应用变压器层,并且相对于序列长度具有线性复杂性。我们的复发单元在训练过程中在代币的块而不是单个令牌上运行,并利用块内并行计算,以便有效利用加速器硬件。单元本身非常简单。它仅仅是一个变压器层:它使用自我注意事项和交叉注意力来有效计算大量状态向量和令牌上的复发函数。我们的设计部分受到LSTM单元的启发,它使用LSTM风格的大门,但它可以将典型的LSTM单元缩放为几个数量级。我们的复发实现在计算时间和参数计数中都具有相同的成本作为传统的变压器层,但是在很长的序列中,语言建模任务中的语言建模任务的困惑极大地改善了。我们的模型比远程变压器XL基线的表现宽大,同时运行的速度是两倍。我们证明了它在PG19(书籍),Arxiv论文和GitHub源代码上的有效性。我们的代码已发布为开​​源。
translated by 谷歌翻译
现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
在本文中,我们推测,如果考虑到神经网络的置换不变性,SGD解决方案可能不会在它们之间的线性插值中没有障碍。尽管这是一个大胆的猜想,但我们展示了广泛的经验尝试却没有反驳。我们进一步提供了初步的理论结果来支持我们的猜想。我们的猜想对彩票票证假设,分布式培训和合奏方法有影响。
translated by 谷歌翻译